
谷歌深夜放出 IMO 金牌模型,多项测试力压 Grok 4、OpenAI o3!网友评论两极分化
谷歌深夜放出 IMO 金牌模型,多项测试力压 Grok 4、OpenAI o3!网友评论两极分化昨夜,谷歌宣布向 Google AI Ultra 订阅用户推出 Deep Think 功能,Gemini 2.5 Deep Think 模型在今年的国际数学奥林匹克竞赛 (IMO) 上夺得金牌。
昨夜,谷歌宣布向 Google AI Ultra 订阅用户推出 Deep Think 功能,Gemini 2.5 Deep Think 模型在今年的国际数学奥林匹克竞赛 (IMO) 上夺得金牌。
在人工智能领域,对比语言 - 图像预训练(CLIP) 是一种流行的基础模型,由 OpenAI 提出
近年来,OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制,强化学习使模型能够发展出可泛化的推理策略,在复杂问题上取得了监督微调难以企及的进展。
在三个月前,OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出,AI 研究正在从 “能不能做” 转向 “学得是否有效”,传统的基准测试已经难以衡量 AI 的实际效用,他指出现有的评估方式中,模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性,无法评估模型长期适应能力和更类人的动态学习能力。
就在刚刚,智谱正式发布最新旗舰模型 GLM-4.5。按照智谱官方说法,这是一款专为 Agent 应用打造的基础模型。延续一贯的开源原则,目前这款模型已经在 Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License。
目前将AI当作能力更强的信息提供者,才是个最好的选择。 AI正在变得越来越有“人味”,偷懒、撒谎、谄媚等现象的出现使得让AI不再只是冷冰冰的机器。如果说OpenAI o3等模型篡改代码拒绝关机指令是“求生本能”在作祟,那么AI又为何会化身“赛博舔狗”,选择近乎无底线地迎合用户呢?
上周,OpenAI 正式推出了自己的 Agent 产品,ChatGPT agent。 用户只需扔出一句话,它就能像个聪明的助理一样,查资料、写报告、点网页、跑代码,甚至还能做一整套财报分析,再打包成 PPT。
昨天,《华尔街日报》报道称,OpenAI 和软银在推迟了 6 个月的星际之门(Stargate)项目上出现了争执,并大幅缩减了近期计划。
OpenAI GPT Agent以为只比Manus们差了一步, 但7月份带着一堆更新回归的MiniMax Agent告诉它其实已经慢一圈了。
据海外科技媒体《The Information》报道,OpenAI 正在开发一项重要功能——让 ChatGPT 原生支持并编辑 Excel 和 PowerPoint 文件。这意味着,用户未来可以直接在 ChatGPT 中创建或者打开 .xlsx 和 .pptx 文件,并在 AI 的协助下进行公式输入、图表分析、幻灯片排版等操作,无需依赖传统 Office 软件。